Apache Tika দিয়ে বিভিন্ন ধরনের ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

Apache Tika দিয়ে Text Extraction - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

266

অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী ওপেন সোর্স লাইব্রেরি যা বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে ব্যবহৃত হয়। অ্যাপাচি টিকা ফাইলের প্রকৃত ফরম্যাট সনাক্ত করে এবং সেগুলির মধ্যে থাকা পাঠ্য তথ্য এবং মেটাডেটা এক্সট্রাক্ট করে দেয়। এটি বিভিন্ন ধরনের ফাইল যেমন PDF, Microsoft Word, Excel, PowerPoint, HTML, OpenOffice, Image files ইত্যাদি থেকে টেক্সট এক্সট্রাক্ট করতে সক্ষম।

এখানে, অ্যাপাচি টিকা ব্যবহার করে বিভিন্ন ধরনের ফাইল থেকে কিভাবে টেক্সট এক্সট্রাক্ট করা যায় তা দেখানো হবে।


Apache Tika দিয়ে বিভিন্ন ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করার পদ্ধতি

১. PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

অ্যাপাচি টিকা দিয়ে PDF ফাইল থেকে টেক্সট এক্সট্রাক্ট করা খুবই সহজ। Apache Tika স্বয়ংক্রিয়ভাবে PDF ফাইল থেকে পাঠ্য এক্সট্রাক্ট করে।

Java Example using Apache Tika for PDF Text Extraction:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class PdfTextExtraction {
    public static void main(String[] args) {
        // Create a Tika instance
        Tika tika = new Tika();

        // Specify the PDF file
        File pdfFile = new File("example.pdf");

        try {
            // Extract text from the PDF file
            String text = tika.parseToString(pdfFile);

            // Print extracted text
            System.out.println("Extracted Text from PDF: " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ব্যাখ্যা:

  • Tika.parseToString() মেথড ব্যবহার করে PDF ফাইল থেকে টেক্সট এক্সট্রাক্ট করা হচ্ছে।
  • এই মেথডটি ফাইলের পুরো টেক্সট কনটেন্ট বের করে এবং কনসোলে প্রিন্ট করে।

২. Microsoft Word (.docx) ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

অ্যাপাচি টিকা ব্যবহার করে Microsoft Word ফাইল (.docx) থেকে টেক্সট এক্সট্রাক্ট করা যায়।

Java Example using Apache Tika for Word Text Extraction:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class WordTextExtraction {
    public static void main(String[] args) {
        // Create a Tika instance
        Tika tika = new Tika();

        // Specify the Word file
        File wordFile = new File("example.docx");

        try {
            // Extract text from the Word file
            String text = tika.parseToString(wordFile);

            // Print extracted text
            System.out.println("Extracted Text from Word file: " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ব্যাখ্যা:

  • এখানে Tika.parseToString() মেথড ব্যবহার করা হয়েছে যা Microsoft Word (.docx) ফাইল থেকে টেক্সট এক্সট্রাক্ট করে।
  • এটি ফাইলের পুরো কন্টেন্ট থেকে টেক্সট বের করে কনসোলে দেখায়।

৩. Excel (.xlsx) ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

অ্যাপাচি টিকা Microsoft Excel ফাইল (.xlsx) থেকেও টেক্সট এক্সট্রাক্ট করতে সক্ষম।

Java Example using Apache Tika for Excel Text Extraction:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class ExcelTextExtraction {
    public static void main(String[] args) {
        // Create a Tika instance
        Tika tika = new Tika();

        // Specify the Excel file
        File excelFile = new File("example.xlsx");

        try {
            // Extract text from the Excel file
            String text = tika.parseToString(excelFile);

            // Print extracted text
            System.out.println("Extracted Text from Excel file: " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ব্যাখ্যা:

  • Tika.parseToString() মেথড ব্যবহার করে Excel ফাইল থেকে টেক্সট এক্সট্রাক্ট করা হচ্ছে।
  • এটি Excel ফাইলের সেলের টেক্সট এবং ডেটা এক্সট্রাক্ট করবে এবং কনসোলে প্রদর্শন করবে।

৪. HTML ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা

অ্যাপাচি টিকা HTML ফাইল থেকেও টেক্সট এক্সট্রাক্ট করতে সক্ষম, যা ওয়েব পেজের কন্টেন্ট বের করার জন্য ব্যবহৃত হয়।

Java Example using Apache Tika for HTML Text Extraction:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class HtmlTextExtraction {
    public static void main(String[] args) {
        // Create a Tika instance
        Tika tika = new Tika();

        // Specify the HTML file
        File htmlFile = new File("example.html");

        try {
            // Extract text from the HTML file
            String text = tika.parseToString(htmlFile);

            // Print extracted text
            System.out.println("Extracted Text from HTML file: " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ব্যাখ্যা:

  • এখানে Tika.parseToString() মেথড ব্যবহার করে HTML ফাইল থেকে কেবল টেক্সট এক্সট্রাক্ট করা হচ্ছে, যেটি HTML ট্যাগ থেকে আলাদা করে শুধুমাত্র পাঠ্য তথ্য দেয়।

৫. OpenDocument ফাইল (.odt) থেকে টেক্সট এক্সট্র্যাক্ট করা

অ্যাপাচি টিকা OpenDocument (.odt) ফাইল থেকেও টেক্সট এক্সট্রাক্ট করতে সক্ষম।

Java Example using Apache Tika for OpenDocument Text Extraction:

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class OpenDocumentTextExtraction {
    public static void main(String[] args) {
        // Create a Tika instance
        Tika tika = new Tika();

        // Specify the OpenDocument file
        File odtFile = new File("example.odt");

        try {
            // Extract text from the OpenDocument file
            String text = tika.parseToString(odtFile);

            // Print extracted text
            System.out.println("Extracted Text from OpenDocument file: " + text);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ব্যাখ্যা:

  • Tika.parseToString() মেথড ব্যবহার করে OpenDocument (.odt) ফাইল থেকে টেক্সট এক্সট্রাক্ট করা হচ্ছে।

অ্যাপাচি টিকা দিয়ে অন্যান্য ফাইল ফরম্যাট থেকে টেক্সট এক্সট্র্যাক্ট করা

অ্যাপাচি টিকা শুধুমাত্র PDF, Microsoft Office (Word, Excel, PowerPoint), OpenDocument, এবং HTML ফাইল থেকে টেক্সট এক্সট্রাক্ট করার পাশাপাশি image files (যেমন, JPEG, PNG, GIF) এবং audio/video ফাইল থেকেও মেটাডেটা এবং কনটেন্ট এক্সট্রাক্ট করতে সক্ষম।

এটি এমন একটি সরঞ্জাম যা আপনাকে আপনার অ্যাপ্লিকেশন বা সিস্টেমে সমস্ত ধরনের ডকুমেন্টের কনটেন্ট এবং মেটাডেটা এক্সট্রাক্ট করার জন্য সাহায্য করে।


সারাংশ

অ্যাপাচি টিকা (Apache Tika) একটি অত্যন্ত কার্যকরী লাইব্রেরি যা বিভিন্ন ধরনের ফাইল ফরম্যাট থেকে টেক্সট এবং মেটাডেটা এক্সট্রাক্ট করতে ব্যবহৃত হয়। এটি PDF, Microsoft Word, Excel, PowerPoint, OpenDocument, HTML এবং আরও অনেক ফাইল ফরম্যাট থেকে পাঠ্য এবং মেটাডেটা এক্সট্রাক্ট করতে সহায়তা করে। অ্যাপাচি টিকা ব্যবহার করে আপনি সহজে এবং দ্রুত ফাইলের কনটেন্ট এবং মেটাডেটা বের করতে পারবেন, যা ডেটা সায়েন্স, ডকুমেন্ট ম্যানেজমেন্ট, এবং ইনডেক্সিং সিস্টেমে ব্যবহৃত হয়।


Content added By
Promotion

Are you sure to start over?

Loading...